Majkrosoft nastavlja svoju impresivnu seriju uspeha u oblasti veštačke inteligencije i danas je objavio izdavanje tri nova modela u Phi-3.5 seriji. Ovi modeli, koji se odlikuju naprednim funkcijama multimodalnosti i multilingvalnosti, imaju za cilj dalje revolucionisanje tržišta aplikacija zasnovanih na veštačkoj inteligenciji. Modeli su dostupni pod Majkrosoft-brendiranom MIT licencom na Hugging Face-u i pružaju programerima širom sveta mogućnost slobodnog korišćenja, prilagođavanja i daljeg razvoja ovih inovativnih tehnologija.
Tri modela – Phi-3.5-mini-instruct, Phi-3.5-MoE-instruct i Phi-3.5-vision-instruct – pokrivaju širok spektar primena, od osnovnih do visokosloženih zadataka. Svaki model je optimizovan za specifične zahteve, kao što su brzo i precizno rezonovanje ili obrada tekstualnih i slikovnih podataka u multimodalnim zadacima.
Phi-3.5 Mini Instruct model, opremljen sa 3,8 milijardi parametara, je lagani model koji je posebno razvijen za upotrebu u okruženjima sa ograničenjima memorije ili računarske snage. Pokazuje impresivne performanse u zadacima koji zahtevaju snažno razumevanje, kao što su generisanje koda, rešavanje matematičkih problema i logičke upite. Uprkos svojoj kompaktnoj veličini, prevazilazi druge modele svoje klase na RepoQA benchmark-u, kao što je Llama-3.1-8B-instruct, posebno u zadacima koji zahtevaju razumevanje dugih konteksta.
Phi-3.5 MoE (Mixture of Experts) model je prvo ove vrste u Microsoftovom portfoliju. Kombinuje različite tipove modela, od kojih je svaki specijalizovan za različite zadatke, što omogućava efikasno rešavanje složenih AI zadataka. Sa 42 milijarde aktivnih parametara, nudi skalabilne performanse i podržava kontekste sa do 128.000 tokena. Impresivno nadmašuje GPT-4o mini u 5-shot MMLU benchmarku u oblastima kao što su STEM, društvene nauke i humanistika, što ističe njegovu svestranost i moć.
Phi-3.5 Vision Instruction Model integriše sposobnosti za obradu teksta i slike, što ga čini idealnim za zadatke kao što su opšta obrada slika, optičko prepoznavanje znakova i rezime snimaka. Sa podrškom za kontekstualne dužine od 128k tokena, ovaj model može da rešava složene, višeslojne vizuelne zadatke. Microsoft ističe da je model treniran na kombinaciji sintetičkih i javno dostupnih skupova podataka, sa fokusom na visokokvalitetne i podatke koji zahtevaju intenzivno razmišljanje.
Sva tri modela iz serije Phi-3.5 objavljena su pod MIT licencom, što naglašava posvećenost Microsofta podršci open-source zajednice. Ova licenca omogućava programerima da slobodno koriste, modifikuju i distribuiraju softver, uz poštovanje odricanja od odgovornosti Microsofta i drugih vlasnika autorskih prava.
Objavljivanje modela Phi-3.5 predstavlja značajan napredak u razvoju višejezične i multimodalne veštačke inteligencije. Ovi modeli omogućavaju developerima da integrišu najmodernije mogućnosti veštačke inteligencije u svoje aplikacije, što podstiče inovacije kako u komercijalnom, tako i u istraživačkom domenu.